{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 数据集的类型\n",
    "数据集的类型有多种，并且随着数据挖掘的发展与成熟，还会有更多类型的数据集将用于分析。本节我们介绍一些很常见的类型。为方便起见，我们将数据集类型分成三组：记录数据、基于图形的数据和有序的数据。这些分类不能涵盖所有的可能性，肯定还存在其他的分组。\n",
    "###数据集的一般特性\n",
    "在提供特定类型数据集的细节之前，我们先讨论适用于许多数据集的三个特性，它们对数据挖掘技术具有重要影响，它们是维度、稀疏性和分辨率。\n",
    "维度数据集的维度是数据集中的对象具有的属性数目。低维度数据往往与中、高维度数据有质的不同。确实，分析高维数据有时会陷入所谓维灾难。正因为如此，数据预处理的一个重要动机就是减少维度，称为维归约。\n",
    "稀疏性有些数据集，如具有非对称特征的数据集，一个对象的大部分属性上的值都为0；在许多情况下，非零项还不到1%。实际上，稀疏性是一个优点，因为只有非零值才需要存储和处理。这将节省大量的计算时间和存储空间。此外，有些数据挖掘算法仅适合处理稀疏数据。\n",
    "分辨率常常可以在不同的分辨率下得到数据，并且在不同的分辨率下数据的性质也不同。\n",
    "###记录数据\n",
    "许多数据挖掘任务都假定数据集是记录(数据对象)的汇集，每个记录包含固定的数据字段(属性)集。对于记录数据的大部分基本形式，记录之间或数据字段之间没有明显的联系，并且每个记录(对象)具有相同的属性集。记录数据通常存放在平展文件或关系数据库中。关系数据库当然不仅仅是记录的汇集，它还包含更多的信息，但是数据挖掘一般并不使用关系数据库的这些信息。更确切地说，数据库是查找记录的方便场所。\n",
    "###基于图形的数据\n",
    "有时，图形可以方便而有效地表示数据。我们考虑两种特殊情况：(1)图形捕获数据对象之间的联系，(2)数据对象本身用图形表示。\n",
    "带有对象之间联系的数据对象之间的联系常常携带重要信息。在这种情况下，数据常常用图形表示。一般把数据对象映射到图的结点，而对象之间的联系用对象之间的链和诸如方向、权值等链性质表示。考虑万维网上的网页，页面上包含文本和指向其他页面的链接。为了处理搜索查询，Web搜索引擎收集并处理网页，提取它们的内容。然而，众所周知，指向或出自每个页面的链接包含了大量该页面与查询相关程度的信息，因而必须考虑。显示了相互链接的网页集。\n",
    "具有图形对象的数据如果对象具有结构，即对象包含具有联系的子对象，则这样的对象常常用图形表示。例如，化合物的结构可以用图形表示，其中结点是原子，结点之间的链是化学键。\n",
    "给出化合物苯的分子结构示意图，包含碳原子(黑色)和氢原子(灰色)。图形表示可以确定何种子结构频繁地出现在化合物的集合中，并且查明这些子结构中是否有某种子结构与诸如熔点或生成热等特定的化学性质有关。子结构挖拥是数据挖掘中分析这类数据的一个分支。\n",
    "###数据质量\n",
    "数据挖掘使用的数据常常是为其他用途收集的，或者在收集时未明确其目的。因此，数据挖掘常常不能“在数据源头控制质量”。相比之下，统计学的实验设计或调查往往其数据质量都达到了一定的要求。由于无法避免数据质量问题，因此数据挖掘着眼于两个方面：(1)数据质量问题的检测和纠正，(2)使用可以容忍低质量数据的算法。第一步的检测和纠正，通常称作数据清理。\n",
    "下面几节讨论数据质量。尽管也讨论某些与应用有关的问题，但是关注的焦点是测量和数据收集问题。\n",
    "##测量和数据收集问题\n",
    "期望数据完美是不现实的。由于人的错误、测量设备的限制或数据收集过程的漏洞都可能导\n",
    "###数据质量 \n",
    "致问题。数据的值乃至整个数据对象都可能会丢失。在有些情况下，可能有不真实的或重复的对象，即对应于单个“实际”对象出现了多个数据对象。\n",
    "###测量误差和数据收集错误\n",
    "术语测量误差是指测量过程中导致的问题。一个常见的问题是：在某种程度上，记录的值与实际值不同。对于连续属性，测量值与实际值的差称为误差。术语数据收集错误(是指诸如遗漏数据对象或属性值，或不当地包含了其他数据对象等错误。测量误差和数据收集错误可能是系统的也可能是随机的。\n",
    "我们只考虑一般的错误类型。在特定的领域，总有些类型的错误是常"
   ]
  }
 ],
 "metadata": {
  "language_info": {
   "name": "python"
  },
  "orig_nbformat": 4
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
